组合型中文分词方法的研究

组合型中文分词方法的研究

作者:师大云端图书馆 时间:2020-07-31 分类:参考文献 喜欢:1234
师大云端图书馆

【摘要】随着计算机技术的发展,人们已经进入了以网络为核心的信息时代,在这个信息急剧膨胀的社会里,如何获取和掌握有用的信息成为了个人、企业及政府关注的重点。在这种环境下,中文信息处理技术成为了科研人员研究和开发的热点,其中最重要的就是中文分词技术。中文分词是将没有特定分界符的汉字序列分割成符合特定语境下汉语语意的词序列的过程,它是中文信息处理的前提和基础,也是制约着中文信息处理技术发展的瓶颈。歧义的消除和未登录词的识别是中文分词技术的难点,也是影响中文分词切分速度和精度的重要因素。近年来,为了提高切分速度和精度,已经出现了很多中文分词的方法,这些方法的改进主要表现在两个方面:对分词词典的改进,这种改进主要通过减少待切分文本与词典的匹配次数来提高分词的速度;对分词算法的改进,此类型的改进主要是通过对自身算法的改进来提高分词系统的歧义处理和未登录词识别的能力。本文结合这两种改进方式,根据当前关键技术研究现状设计了一个综合词典、统计和规则的组合型中文分词方法,该方法兼有对歧义的检测与处理和对未登录词的识别能力。本文对中文分词的词典机制和分词算法进行了详细研究,提出了一个中文分词的解决方案,该方案主要进行了如下三个方面的工作:第一,对分词词典机制的改进,改进后的词典针对中文信息中二字词所占比例多和汉语中心语偏后的特点,采用双字哈希表的结构(首字哈希表和尾字哈希表),在不提升已有典型词典的空间和维护复杂度的前提下,实现了词条的快速匹配。第二,歧义的检测与处理,现阶段歧义的识别大多是利用双向最大匹配算法,由于双向匹配算法匹配次数较多,出现了回溯正向最大匹配算法,该算法采用回溯词向后推进一个汉字的方式来检测链长为1词簇为2的交集型歧义,减少了歧义检测时与词典的匹配次数,但该方法存在两点缺陷,一是它只能检测链长为1词簇为2的交集型歧义,不能识别链长为1的其他类型歧义和链长为2的交集型歧义,其歧义识别能力有限;另一个是对未发生交集型歧义的字段也进行碎片整理,造成了重复匹配问题。本文针对这两点缺陷在该算法的基础上增加了一个链长为1词簇为3的交集型歧义检测模块,增加之后的算法不仅能识别链长为1的交集型歧义,还能识别链长为2的交集型歧义,同时利用计数方式,对连续发生交集型歧义的字段利用规则与统计结合的方式进行集中消岐,集中消岐方式避免了碎片整理时对没有发生交集型歧义的字段的重复匹配问题,降低了改进算法的时间复杂度。第三,未登录词的识别,本文结合改进算法利用已有识别机制的概率模型与规则相结合的方式来识别未登录词。在大量语料之上的测试结果表明,在提高切分速度的同时,本文提出的组合型中文分词算法不仅提高了切分精度,还可以识别未登录词。系统在整体性能上取得了较满意的效果。
【作者】李惠;
【导师】陈平华;
【作者基本信息】广东工业大学,计算机科学与技术,2014,硕士
【关键词】中文分词;链长;回溯正向最大匹配算法;交集型歧义;未登录词;

【参考文献】
[1]王扬.哈尔滨市耕地资源价值测算研究[D].东北农业大学,农业推广(专业学位),2013,硕士.
[2]李亚青.《商洛学院学报》(2006—2012)载文统计分析[J].商洛学院学报,2013,04:93-97.
[3]张钊.从政治家的言论看日本的暧昧政治[D].河南科技大学,外国语言学及应用语言学,2014,硕士.
[4]梅晓勇,颜君彪,侯识忠.网络环境下的考试系统应用设计与实现[J].计算机工程与应用,2003,26:129-131.
[5]杨炳儒,陈新中,李岩.源于信息挖掘的新型智能化决策支持系统[J].计算机工程,2003,15:53-55.
[6]赵鸿,孙生根,姜建明,赵建国.既有住宅建筑节能改造技术探索与研究[J].住宅科技.2007(02)
[7]周清强.带尾翼通气超空泡航行体流体动力数值模拟[D].哈尔滨工业大学,一般力学与力学基础,2013,硕士.
[8]王海涛.建设银行基于数据库营销的大客户关系管理研究[D].大连理工大学,2003.
[9]陆地.掺杂少层石墨烯电子性质的第一性原理研究[D].南京航空航天大学,2012.
[10]黄彦军.语言思维视角下高中生英语完形填空解题能力调查分析[D].山东师范大学,学科教学(专业学位),2013,硕士.
[11]赵亚如.公平视角下临汾市新农合运行中存在的问题研究[D].山西财经大学,社会保障,2013,硕士.
[12]胡翠.探讨骨桥蛋白在寻常型银屑病发病中的作用及临床意义[D].华中科技大学,皮肤性病学,2013,硕士.
[13]吴世概.长三角地区最低工资就业效应研究[D].华东师范大学,世界经济,2013,硕士.
[14]纪美玲.论我国公民的迁徙自由权[D].安徽大学,法律,2014,硕士.
[15]杜明军.大连港建设第五代物联网智慧港口发展模式研究[D].大连海事大学,物流工程,2014,硕士.
[16]刘静.唐順宗至穆宗時期墓志字词校释[D].河北大学,汉语言文字学,2014,硕士.
[17]孙艺学.五味子素A、B对小鼠大脑脑室侧区神经发生的影响[D].吉林大学,基础兽医学,2014,硕士.
[18]梁琪琪.消费文化视野下的女性时尚杂志[D].西北大学,新闻学,2014,硕士.
[19]钟霭玲.普通话特殊型语言障碍儿童的多重疑问句习得研究[D].广东外语外贸大学,外国语言学及应用语言学,2013,硕士.
[20]王剑英.围手术期颅内肿瘤患者家属心理状况及其相关因素的研究[D].新乡医学院,护理学,2012,硕士.
[21]那金丹.ZSM-5/MCM-41复合材料的合成及其催化裂解性能研究[D].天津大学,化学工艺,2013,硕士.
[22]张昕.我国商业银行房地产信贷风险管理研究[D].北京交通大学,2009.
[23]刘冰.论我国家事诉讼程序的构建[D].西南政法大学,诉讼法学,2012,硕士.
[24]许军.稳态扩散光学层析成像及快速多极边界元法研究[D].华中科技大学,光学工程,2013,硕士.
[25]杨俊仙.关于差分方程解的稳定性和振动性[D].山西大学,基础数学,2004,硕士.
[26]刘加龙.新中国羽毛球项目发展的历史演进研究[D].吉林大学,体育教学,2013,硕士.
[27]姚佳含.吉林省老年人医疗保障问题研究[D].东北师范大学,社会保障学,2012,硕士.
[28]计世在线孙永杰.网络营销技术后盾[N].计算机世界,2003-08-25E25.
[29]陈晓云,胡运发.规则加权的文本关联分类[J].中文信息学报,2005,04:52-59.
[30]张东生.冷冻与冷藏食品产业的现状与发展趋势[J].江西食品工业.2004(04)
[31]刘阳.我国师范大学教育学院合法性危机研究[D].山西师范大学,教育经济与管理,2013,硕士.
[32]萧敬豪.城乡规划过程的环境绩效分析及优化途径[D].重庆大学,城市规划与设计,2014,硕士.
[33]潘飞.基于Java的新交院人力资源系统的设计与实现[D].吉林大学,软件工程,2013,硕士.
[34]牟尧.微生物转化井冈霉素制备假氨基糖类α-糖苷酶抑制剂的研究[D].上海师范大学,微生物学,2013,硕士.
[35]李福良.基于PA85的新型压电陶瓷驱动电源[D].合肥工业大学,精密仪器及机械,2004,硕士.
[36]杜晓乐.县城高中生英语口语焦虑、口语水平和学习策略相关性研究[D].河北师范大学,学科教学,2013,硕士.
[37]殷志伟.公益创投:社会组织能力建设的创新模式与实践[D].苏州大学,社会工作(专业学位),2014,硕士.
[38]曹争争.基于铸辗复合成形的Q235B法兰坯凝固过程研究[D].太原科技大学,材料加工工程,2014,硕士.
[39]张琳.九十年代以来军旅小说主题研究[D].南京师范大学,中国现当代文学,2011,硕士.
[40]秦振.信息查询的语义一致性研究[D].中国人民解放军国防科学技术大学,2003.
[41]左通.交替传译笔记与口译质量的实验报告[D].鲁东大学,英语口译(专业学位),2013,硕士.
[42]闫小喜,韩崇昭.基于目标出生强度在线估计的多目标跟踪算法[J].自动化学报,2011,08:963-972.
[43]王倩.T市移动公司绩效管理体系改进研究[D].天津大学,工商管理,2013,硕士.
[44]路金刚.基于第三轮土地利用规划的弹性研究[D].宁波大学,人文地理学,2013,硕士.
[45]王辉.片上网络拓扑结构的研究与分析[D].西安电子科技大学,计算机软件与理论,2011,硕士.
[46]曾茂林.基于SNORT入侵检测系统的算法研究[D].湖南工业大学,计算机应用技术,2012,硕士.
[47]董雪纯.我国横向税收竞争对地方公共品供给的影响研究[D].山东大学,财政学,2013,硕士.
[48]邱振.我国产业空间转移的低碳效应研究[D].北方工业大学,数量经济学,2014,硕士.
[49]倪文隽.基于RTP协议的Femto基站语音业务的实现与优化[D].华南理工大学,电子与通信工程,2012,硕士.
[50]周雅婷.北京银行天津分行客户服务营销策略研究[D].河北工业大学,工商管理,2013,硕士.

相关推荐
更多